Estimación de recompensa Beta-Bernoulli descontada para aprendizaje por refuerzo eficiente en muestras con recompensas verificables
Aprendizaje por refuerzo eficiente con estimación Beta-Bernoulli descontada y recompensas verificables. Método avanzado para optimizar RL.